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摘要 : 


【 目的】 解决 由 于 不 同类 型 文献 而 产生 的 特征 不 匹配 等 问题 , 提高 待 分 类 文本 的 分 类 效果 。[ 方 法】 使 用 


与 待 分 类 文本 属于 不 同文 献 类 型 的 文本 作为 语料库 的 训练 集 ， 引 入 第 三 方 资源 《 知 网 》 进 行 语义 特征 扩展 。[【 结 


果 】 利 用 该 方法 在 网 页 、 


图 书 、 非 学 术 性 期 刊 、 学 术 性 期 刊 4 种 类 型 文献 上 进行 分 类 实验 ,与 未 经 过 扩展 的 分 


类 方法 相 比 , 分 类 准确 率 提高 1.2% 至 11.0%。[ 局 限 】 未 对 每 一 种 文献 类 型 都 使 用 公开 语 料 进 行 测试 , 因此 本 文 
方法 的 通用 性 和 实验 结果 的 客观 性 有 待 进一步 检验 。[ 结论 】 实验 结果 表明 , 该 方法 具有 一 定 的 可 行 性 和 实用 性 ， 
在 不 同 程度 上 可 以 消除 不 同类 型 文献 之 间 的 语义 差异 ， 从 语料库 构建 和 特征 扩展 两 个 途径 提高 文本 自动 分 类 的 


分 类 效果 。 
关键 词 : 第 三 方 资源 知 网 特征 扩展 语义 差异 


分 类 号 : TP393 G35 


1 3 引 


随 着 互联 网 的 迅猛 发 展 ,网 络 上 的 信息 资源 日 益 
剧 增 ， 人 们 可 以 从 互联 网 上 源源 不 断 地 获取 各 种 形式 
的 信息 ,如 文本 、 图 片 、 音 频 、 视 频 等 。 而 文本 可 以 
来 自 于 网 页 、 图 书 、 学 术 期 刊 论文 等 众多 文献 类 型 ， 
人 们 可 以 获得 同一 主题 下 具有 不 同 内 涵 、 质 量 、 发 布 
速度 的 信息 。 因 此 , 利用 文本 分 类 技术 将 这 些 文本 信 
息 分 门 别 类 ， 以 便 它 们 能 够 更 加 快捷 、 有 效 地 被 分 类 
组 织 或 检索 的 研究 , 具有 较 高 的 应 用 和 实用 价值 。 

文本 自动 分 类 涉及 训练 集 构建 、 特 征 选 择 、 分 类 
算法 等 众多 环节 。 自 动 分 类 研究 中 训练 集 与 待 分 类 文 
本 通常 使 用 同一 类 型 的 文献 , 但 信息 资源 管理 领域 的 
相关 研究 表明 , 使 用 与 待 分 类 文本 属于 不 同类 型 的 文 
献 构建 训练 集 时 , 也 有 可 能 提高 待 分 类 文本 的 分 类 效 
果 上 于 ， 因此 不 同类 型 文献 之 间 的 混合 分 类 成 为 提高 分 


了 中 


类 效果 的 途径 之 一 。 但 是 , 这 些 研究 没有 注意 到 不 同 
类 型 文献 之 间 在 用 词 习惯 、 写 作风 格 上 具有 不 同 特点 ， 
使 得 来 自 训练 集 的 特征 和 待 分 类 文本 的 特征 , 原本 是 
表达 同一 概念 的 , 却 出 现 不 能 很 好 地 进行 匹配 的 问 
题 。 因 此 , 使 用 与 待 分 类 文本 属于 不 同类 型 的 文献 作 
为 训练 集 开展 自动 分 类 时 , 需要 进一步 研究 适当 的 方 
法 克服 训练 集 与 待 分 类 文本 之 间 在 用 词 及 语义 等 方面 
的 差异 ， 以 提高 两 者 之 间 共 同 特征 的 数量 ,进一步 改 

本 研究 借助 第 三 方 资源 对 属于 不 同类 型 文献 的 训 
练 集 和 待 分 类 文本 进行 特征 扩展 , 通过 扩展 特征 的 数 
量 和 语义 , 使 训练 集 和 待 分 类 文本 中 表达 同一 概念 的 
寺 征 之 间 增 加 匹配 的 可 能 ， 以 达到 由 不 同类 型 文献 所 
构成 的 训练 集 和 待 分 类 文本 之 间 具 有 更 多 的 共同 特征 
的 目的 。 本 文 实验 数据 包括 经 过 科学 分 类 、 且 长 期 积 
累 的 图 书 或 期 刊 论文 等 学 术 性 文献 ， 以 及 网 页 、 时 事 
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周刊 等 新 闻 性 、 非 学 术 性 、 更 新 频 度 较 强 的 文本 。 按 
照 文献 类 型 的 不 同 分 别 作为 训练 集 和 待 分 类 文本 ( 测 
试 集 ) 开 展 自 动 分 类 研究 , 提出 一 种 基于 《 知 网 》 外 的 
语义 特征 扩展 方法 , 并 通过 实验 证 明 其 能 提高 多 种 类 
型 文献 的 分 类 效果 。 


2 研究 现状 和 意义 


2.1 国内 外 研究 现状 及 发 展 动态 

基于 机 器 学 习 的 文本 自动 分 类 人 研究 , 需要 分 类 算 
法 对 训练 集 进行 学 习 ， 并 将 学 到 的 知识 用 于 对 测试 集 
的 分 类 。 传 统 机 器 学 习 分 类 中 , 训练 集 和 测试 集 通 常 
使 用 同一 类 型 文献 ， 而 多 种 类 型 文献 混合 分 类 可 以 利 
用 已 有 或 较 易 获取 的 训练 集 ， 对 不 同文 献 类 型 的 测试 
集 进 行 分 类 。 其 依据 来 源 于 迁移 学 习 中 的 跨 领 域 分 类 
思想 钻 。 跨 领域 分 类 是 国内 外 机 器 学 习 领 域 研究 的 前 
沿 主题 之 一 , 其 基本 出 发 点 是 针对 来 自 不 同 领 域 的 训 
练 集 和 测试 集 进行 分 类 。 所 谓 不 同 领 域 , 是 指 训练 集 
和 测试 集 可 以 是 不 同 的 学 科 主 题 内 容 , 也 可 以 是 不 同 
的 产品 评论 , 训练 集 和 测试 集 甚至 可 以 分 别 使 用 不 同 
语言 的 文本 。 文 献 [6-7] 利 用 维基 百科 等 第 三 方 资源 作 
为 中 介 , 对 训练 集 和 属于 不 同 主题 范围 的 测试 集 之 间 
的 特征 进行 关联 , 减少 训练 集 与 测试 集 之 间 因 为 主题 
内 容 不 同 而 在 语义 特征 上 的 差异 , 其 目的 就 是 为 了 在 
训练 集 与 测试 集 之 间 构 造 具有 更 多 共同 特征 的 特征 空 
间 ， 从 而 提升 分 类 效果 。 本 文 利用 这 种 跨 领域 分 类 的 
思想 , 将 《 知 网 》 作 为 第 三 方 资源 , 用 于 增加 不 同文 献 
类 型 的 训练 集 和 测试 集 之 间 特 征 匹 配 的 可 能 性 ,是 一 
种 跨 文 献 类 型 分 类 或 跨 源 文献 分 类 问题 。 

短文 本 特征 扩展 也 是 近 几 年 文本 自动 分 类 领域 研 
究 的 热点 问题 之 一 , 其 核心 思想 是 通过 特征 扩展 扩大 
训练 集 与 测试 集 之 间 共 同 的 特征 数量 或 语义 信息 ， 从 
而 提高 分 类 效果 。 例 如 , 文献 [8] 以 维基 百科 词语 相关 
概念 集合 作为 特征 扩展 词 集 ， 利用 维基 百科 中 概念 之 
间 的 链接 、 类 别 关系 分 别 对 训练 集 和 测试 集 的 短文 本 
进行 特征 扩展 , 通过 扩展 特征 数量 提升 分 类 性 能 ; 又 
如 , 文献 [9] 从 丰富 特征 词语 义 的 角度 出 发 , 抽取 领域 
高 频 词 作 为 特征 词 , 基于 《 知 网 》 从 语义 方面 将 训练 
集 和 测试 集中 的 特征 词 扩展 为 概念 和 义 元 , 并 利用 不 
同 概念 所 包含 相同 义 元 的 信息 量 计算 特征 词 的 相似 度 
实现 分 类 , 也 提升 了 分 类 效果 。 


四 


区 了 现代 图 书 情报 技术 


本 人 研究 将 短文 本 分 类 研究 中 特征 扩展 的 方法 应 用 
于 不 同类 型 文献 所 构成 的 训练 集 和 测试 集 上 , 通过 扩 
展 特征 的 数量 和 语义 , 使 不 同类 型 文献 之 间 有 具有 更 多 
的 共同 特征 ， 从 而 帮助 提高 分 类 效果 。 
2.2 ”研究 意义 

机 器 学 习 的 文本 自动 分 类 是 自动 分 类 的 主流 方 
式 ， 其 基本 过 程 主要 包括 : 构建 语料库 、 文 本 建 模 、 特 
征 选择 、 特 征 扩 展 、 选 择 并 实现 分 类 算法 等 环节 。 在 
人 工 智能 领域 ,自动 分 类 的 主要 研究 内 容 是 除 构建 语 
料 库 以 外 的 其 他 环节 。 而 在 信息 管理 领域 , 由 于 文献 
是 其 主要 研究 和 应 用 对 象 ， 关于 文献 的 分 类 、 内 容 特 
征 (如 主题 )、 类 型 以 及 特性 ， 有 众多 的 研究 成 果 。 因此， 
在 开展 自动 分 类 研究 时 , 很 自然 地 就 比较 重视 语料库 
环节 中 训练 集 和 测试 集 作 为 文献 的 文本 特性 ， 并 试图 
将 其 应 用 到 提高 自动 分 类 效率 上 。 本 文 借鉴 信息 管理 
领域 中 , 单纯 使 用 不 同类 型 文献 分 别 作 为 训练 集 和 测 
试 集 以 提高 分 类 性 能 的 研究 成 果 ， 从 缩小 训练 集 和 测 
试 集 之 间 因 文献 类 型 的 不 同 而 可 能 产生 语义 差异 的 角 
度 , 试图 进一步 从 语料库 出 发 提高 分 类 效果 。 


3 ”研究 方法 


3.1 基于 《 知 网 》 语 义 特征 扩展 的 分 类 框架 

为 解决 训练 集 和 测试 集 因为 不 同类 型 文献 之 间 的 
差异 而 产生 特征 上 的 不 匹配 , 本 文 按照 文献 [10] 中 有 
关 特 征 扩展 的 基本 思想 , 提出 一 种 针对 不 同类 型 文 
献 开 展 特 征 扩 展 的 文本 分 类 方法 。 具 体 分 类 框架 如 
图 1 所 示 : 


提取 语义 核心 词 
知 网 扩 


新 测试 集 ll 


展 


图 1 基于 《 知 网 》 语 义 特 征 扩展 的 文本 分 类 框架 

(1) 预 处 理 。 分 别 对 属于 不 同文 献 类 型 的 训练 集 
和 测试 集 文本 进行 分 词 、 去 停 用 词 等 预 处 理 , 预 处 理 
之 后 可 以 得 到 每 篇 文章 对 应 的 初始 特征 集合 。 


(2) 计算 训练 集 文本 中 特征 词 的 TF-IDF 权重 , 提 
取 大 于 某 一 阔 值 的 特征 词 构成 语义 核心 词 集 。 

(3) 对 经 过 预 处 理 的 待 分 类 文本 d, 借助 《 知 网 》 
的 语义 词典 计算 d 中 每 个 特征 词 与 训练 集 语义 核心 词 
集中 各 特征 词 之 间 的 语义 相似 度 , 将 相似 度 值 大 于 某 
一 冰 值 的 特征 词 扩展 到 文本 d 中 ,获得 扩展 后 的 待 分 
类 文本 。 使 得 测试 集中 具有 相近 语义 的 特征 ， 能够 通 
过 《 知 网 》 得 以 扩展 、 与 训练 集中 的 特征 匹配 。 

(4) 采用 KNN 算法 , 计算 待 分 类 文本 与 训练 集中 
语义 核心 词 集 的 相似 度 , 将 相似 度 最 高 的 类 别 分 配给 
该 待 分 类 文本 。 

3.2 ”训练 集 语义 核心 词 集 的 获取 

TF-IDF 权重 被 广泛 应 用 于 文本 分 类 进行 特征 权 
重 计算 , 其 主要 思想 是 如 果 某 个 特征 项 在 一 个 文本 中 
出 现 的 词 频 高 , 并 且 在 其 他 文本 中 很 少 出 现 , 则 认为 
此 特征 项 具有 很 好 的 类 别 区 分 能 力 中 1。 因 此 ,本 文 将 
训练 集中 TF-IDF 权 值 较 高 的 特征 词 作为 语义 核心 词 
进行 特征 扩展 , 统计 训练 集中 每 个 特征 词 在 每 个 类 别 
中 的 TF-IDF 值 ， 取 大 于 阔 值 的 词 作为 语义 核心 词 。 具 
体 流程 如 下 : 

输入 : 训练 集 D, 特征 词 TF-IDF 阅 值 weight 

输出 : 训练 集 语义 核心 词 

@ 对 训练 集 进行 词性 过 滤 ， 仅 保留 对 分 类 影响 较 大 的 
名 词 、 动 词 和 形容 词 ; 

人 @) 计 算 每 个 特征 词 在 各 文本 中 的 TF-IDF 权 值 ; 

图 对 每 一 篇 文本 中 的 特征 词 进行 归 一 化 处 理 ， 设 特征 
词 i 在 文本 中 的 TF-IDF 值 为 wj ， 按 照 公式 (1) 进 行 归 一 化 
处 理 : 


Wi = 一 一 (1) 


(@ 取 在 每 类 中 占 比 大 于 阅 值 weight 的 特征 词 作为 训练 
集 的 高 频 词 。 
3.3 ”基于 《 知 网 》 的 语义 相似 度 计算 

本 文 借助 《 知 网 》 计 算 特 征 词 之 间 的 语义 相似 度 ， 
以 此 挖掘 由 不 同文 献 类 型 文本 所 构成 的 训练 集 和 测 
试 集 之 间 的 相关 关系 , 由 此 可 见 ,， 基于 《 知 网 》 的 语 
义 相 似 度 计算 是 本 文 特征 扩展 方法 的 基础 。 在 《 知 
网 的 结构 中 ,词语 由 义 项 表示 ， 即 一 个 词语 可 以 表 
示 为 多 个 义 项 ,而 一 个 义 项 又 由 义 原来 表示 。 因 此 ， 
词语 之 间 的 相似 度 可 以 通过 计算 其 义 原 间 的 相似 度 
得 到 。 


(1) 义 原 相似 度 计算 

《 知 网 》 中 的 义 原 树 是 由 义 原 之 间 的 上 下 位 关系 构 
造成 一 个 树 状 结构 的 层次 体系 ,本 文通 过 计算 义 原 树 
中 义 原 间 的 最 短路 径 距 离 计 算 义 原 相似 度 。 设 两 个 义 
原 的 最 短路 径 距 离 为 d， 则 这 两 个 义 原 之 间 的 相似 度 
计算 公式 如 下 [1: 

sim(p1,p2) =a/(d+ 0) O) 

其 中 ，pi,p; 表示 两 个 义 原 ，d 为 pl 和 p, 在 义 原 
树 中 的 最 短路 径 距 离 ，o 是 可 调 参 数 。 

文献 [13] 认 为 仅 考虑 义 原 之 间 的 最 短路 径 距 离 不 
能 准确 地 计算 两 者 的 相似 度 ， 提 出 考虑 义 原 层次 深度 
的 义 原 相似 度 计算 方法 。 其 主要 思想 是 : 对 于 相同 最 
短路 径 距 离 的 两 个 义 原 ， 层次 越 深 , 义 原 描述 的 含义 
越 具 体 , 应 该 赋予 更 大 的 相似 度 权 重 。 计 算 公 式 如 下 : 


Ox min(depth， 5 depthp?) @) 


sim(pi, = - 
(pisp2) OQL X min(depth, ,depthb?)+d 


其 中 ，depth, ,depth 分 别 为 义 原 pl 和 ps 在 义 原 
树 中 的 深度 , d 为 pl 和 p? 在 义 原 树 中 的 最 短路 径 距 离 ， 
a 是 可 调 参 数 。 本 文采 用 公式 (3) 计 算 义 原 间 相似 度 。 

(2) 义 项 相似 度 计 算 

在 《 知 网 》 中 对 义 项 的 描述 一 般 分 为 4 类 6， 即 
主要 特征 、 次 要 特征 、 关 系 义 原 特征 以 及 关系 符号 特 
征 描述 式 。 义 项 的 相似 度 为 语义 描述 式 的 各 个 对 应 组 
成 部 分 间 的 相似 度 的 加 权 和 。 义 项 s; 和 义 项 s, 的 相似 
度 计算 如 下 5 

sim(s1,s2) = DB xsimi(Sl,S2) (4) 

其 中 ，sim;(s1,s,) 分 别 为 义 项 si 与 s; 的 语义 描述 
式 中 的 各 组 成 部 分 之 间 的 相似 度 ，B 为 各 部 分 的 相似 
度 比 重 ,Bi +B,+B3+B4s=1, 且 B1 宇 B, 宇 Bs 宇 Ba。 
文献 [12] 给 出 了 义 项 的 语义 描述 式 中 各 个 组 成 部 分 的 
相似 度 计算 方法 ， 义 项 的 相似 度 计算 最 终 可 以 转化 为 
义 原 间 的 相似 度 计算 。 

(3) 词语 相似 度 计 算 

文献 [15] 认 为 两 个 词语 之 间 的 相似 度 就 是 它们 在 
不 同 的 上 下 文中 可 以 互相 替换 且 不 改变 文本 的 句法 语 
义 结构 的 可 能 性 大 小 。 假 设 有 两 个 词语 wj 和 w，，,， 奎 
wi 含有 m 个 义 项 : si ={s11,S12,…,SIm}，W2 含有 n 个 


义 项 : S> = {821; 82707" Sn} 则 词语 wj 和 w> 的 相似 度 
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为 各 个 义 项 所 有 组 合 中 相似 度 的 最 大 值 , 采用 了 最 大 
匹配 的 方法 。 计 算 公式 如 下 中 


sim(s1,s2) = max sim(s1i,s2;) (5) 
ij 


4 实验 设计 与 分 析 


4.1 实验 材料 

本 研究 分 别 从 搜狗 语料库 9、 馆藏 目录 、 电 子 期 
刊 数据 库 等 信息 资源 中 获取 网 页 、 图 书 和 期 刊 等 三 种 
类 型 的 文献 ,其 中 ,期刊 进一步 分 为 学 术 性 期 刊 和 非 
学 术 性 期 刊 。 网 页 文献 选取 搜狗 语料库 中 体育 、IT 和 
事 三 个 类 别 的 文本 构成 实验 材料 。 图 书 文献 取 自 某 
大 学 图 书馆 的 馆藏 目录 OPAC, 选取 中 国 图 书 分 类 法 
分 类 体系 下 体育 、 计 算 机 技术 和 军事 三 大 类 中 部 分 图 
书 的 书目 信息 , 提取 其 中 的 书 名 和 摘要 等 内 容 构 成 实 
验 材料 的 文本 。 期 刊 按 照 中 国 图 书 分 类 法 , 选取 CNKI 
中 体育 、 计 算 机 技术 和 和 军事 三 大 类 的 部 分 期 刊 。 

本 文 对 以 上 4 种 类 型 文献 各 建立 多 套 实验 材料 并 
重复 开展 实验 。 每 套 实验 材料 包括 一 种 类 型 文献 的 训 
练 集 和 测试 集 , 均 由 体育 、 计 算 机 技术 和 军事 三 个 大 
类 构成 ,每 一 个 类 型 文献 分 别 由 600 篇 文本 构成 , 共 
2 400 篇 。 

4.2 ”实验 方法 与 测评 方法 

不 同 的 分 类 算法 会 对 分 类 结果 产生 较为 明显 的 影 
响 ， 本 实验 选择 经 典 的 KNN 分 类 算法 构造 分 类 器 。 
此 外 ， 从 理论 上 讲 ，Naive Bayes 分 类 算法 也 能 够 达到 
不 错 的 分 类 效果 , 但 其 特征 项 独立 假设 并 不 严格 成 立 ， 
所 以 经 常 被 用 作 其 他 方法 的 比较 标准 。 本 文 将 KNN 
算法 与 Naive Bayes 算法 进行 比较 , 说 明 KNN 算法 的 
有 效 性 。 采 用 KNN 分 类 算法 将 多 种 文献 单独 自动 分 
类 、 混 合 自 动 分 类 与 本 文 提出 的 基于 《 知 网 》 语 义 特 
征 扩展 的 混合 分 类 方法 进行 对 照 实 验 , 得 出 结论 并 进 
行 验证 。 

KNN 算法 中 的 k 值 选取 问题 ,本文 使 用 一 种 自 适 
应 算法 可 以 自动 选取 k 值 i 1 并 且 结果 更 为 准确 。 训 
练 集 选 取 语 义 核 心 词 集 阔 值 根据 预备 实验 结果 测 得 取 
值 为 0.8 时 效果 最 佳 。 利 用 《 知 网 》 进 行 语义 特征 扩 
展 中 的 各 项 参数 根据 经 验 咏 取 值 分 别 为 xu =1.6, Bi = 
0.5, B, = 0.2, Bs = 0.17, Bs = 0.13 。 分 类 效果 的 评价 采 
用 文本 自动 分 类 研究 中 通用 的 宏 平均 值 F1, 它 是 对 分 
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准 率 和 分 全 率 的 综合 评价 、 代 表 分 类 系统 的 整体 分 类 
效果 。 

为 消除 不 平衡 数据 对 实验 结果 的 影响 ,本文 所 有 
实验 语 料 均 采 用 平衡 数据 , 包括 各 个 类 别 包含 大 致 相 
同 数目 的 文本 以 及 文本 之 间 的 长 度 差别 不 大 ， 且 训练 
集 与 测试 集 无 重复 。 本 文采 取 五 折 交 又 验 证 法 进行 训 
练 和 分 类 , 最 后 取 Fl 的 平均 值 作为 实验 结果 [1。 
4.3 ”实验 结果 

(1) 各 类 型 文献 单独 分 类 实验 结 

各 类 型 文献 单独 分 类 实验 , 是 指 训练 集 和 测试 集 
均 为 同 种 文献 类 型 的 文本 时 , 对 4 种 类 型 文献 的 实验 
材料 分 别 开 展 五 折 交 又 分 类 实验 , 保证 训练 集 与 测试 
集 之 间 没 有 重复 文本 。 分 类 效果 如 图 2 所 示 : 


图 Naive Bayes 口 


“图书 | 非 学 术 期 乔 
NaiveBayes| 092 | 0738 | 0798 | 
KNN | 0914 | 0718 | 0807 | 


类 别 
图 2 不 同 分 类 算法 下 各 类 型 文献 单独 分 类 实验 结果 


使 用 Naive Bayes 算法 的 实验 结论 与 使 用 KNN 
算法 的 效果 几乎 一 致 从 而 验证 了 KNN 算法 的 有 效 
性 ， 因此 选取 KNN 算法 作为 本 文 的 分 类 算法 。 另 外 ， 
由 图 2 显示 的 实验 结果 可 知 ,各 类 型 文献 在 进行 单独 
分 类 实验 的 时 候 都 能 取得 不 错 的 分 类 效果 ,分 类 准确 
率 都 在 70% 以 上 。 

(2) 各 类 型 文献 混合 分 类 实验 结 

各 类 型 文献 混合 分 类 实验 ， 是 指 训练 集 和 测试 集 
为 不 同文 献 类 型 的 文本 时 , 对 4 种 类 型 文献 的 实验 材料 
分 别 开 展 五 折 交 叉 分 类 实验 。 分 类 效果 如 图 3 所 示 。 多 
种 类 型 文献 混合 自动 分 类 实验 结果 表明 , 4 种 文献 类 型 
中 ， 网 页 与 非 学 术 期 刊 之 间 的 分 类 效果 较 好 , 均 在 80% 
以 上 , 并 且 其 中 以 网 页 为 训练 集 ， 非 学 术 期 刊 为 测试 集 
的 交叉 分 类 效果 达到 了 83.9%， 甚 至 好 于 非 学 术 期 刊 的 
单独 分 类 效果 。 而 图 书 与 学 术 期 刊 之 间 的 分 类 效果 较 
好 , 均 在 70% 以 上 。 同 样 , 在 以 学 术 期 刊 作为 训练 集 ， 
图 书 作为 测试 集 的 实验 组 里 , 分 类 准确 率 为 78.4%， 也 
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网 页 测试 集 0.914 0.509 0.867 0.541 
多 这 人 0.513 0.718 0.338 0.784 


0.839 0.405 0.807 0.462 
| os | 01 | os | 08% 
类 别 
图 3 KNN 算法 下 各 类 型 文献 混合 分 类 实验 结果 


高 于 单独 用 图 书 进行 的 分 类 实验 准确 率 71.8%。 这 证 明 
了 不 同类 型 文献 之 间 进 行 混合 分 类 的 合理 性 。 

男 外 , 4 种 文献 类 型 中 ,网 页 与 图 书 、 学 术 期 刊 ， 
图 书 与 网 页 、 非 学 术 期 刊 之 间 的 分 类 效果 较 差 , 均 在 
60% 以 下 。 由 此 可 知 , 不 同文 献 类 型 的 训练 集 和 测试 
集 的 选择 对 分 类 效果 的 影响 也 是 显著 的 。 相互 匹配 的 
文献 类 型 之 间 甚 至 可 以 获得 比 单独 文献 分 类 还 要 好 
的 分 类 效果 ， 而 不 匹配 的 文献 类 型 之 间 往 往 难以 取 
得 较 高 的 分 类 效果 。 这 说 明 不 同文 献 类 型 的 组 合 对 分 


类 效果 的 影响 是 非常 显著 的 。 

(3) 基于 《 知 网 》 语 义 特征 扩展 的 混合 分 类 实验 
结果 

基于 《 知 网 》 语 义 特征 扩展 的 混合 分 类 实验 , 是 

首 将 4 种 文献 类 型 的 文本 分 别 作为 训练 集 和 测试 集 ( 包 

括 训 练 集 与 测试 集 使 用 同一 文献 类 型 ), 使 用 本 文 提出 
的 特征 扩展 方法 , 将 《 知 网 》 作 为 第 三 方 资源 对 测试 
集 进行 特征 扩展 , 再 进行 同样 的 五 折 交 又 分 类 实验 。 
分 类 效果 如 图 4 所 示 : 


基于 《 知 网 》 语 义 特征 扩展 的 混合 分 类 实验 结 
表明 , 经 过 《 知 网 》 的 语义 特征 扩展 之 后 , 4 种 文献 类 
型 的 单独 分 类 效果 有 不 同 程度 的 提升 , 如 以 图 书 作为 
训练 集 和 测试 集 的 分 类 效果 从 71.8% 上 升 到 74.1%， 
原来 分 类 效果 较 好 的 以 网 页 作为 训练 集 和 测试 集 的 分 


类 别 
图 4 基于 《 知 网 》 语 义 特征 扩展 的 混合 分 类 实验 结果 


类 效果 从 91.4% 上 升 到 91.7%; 而 4 种 文献 类 型 的 交叉 
分 类 效果 也 有 较为 明显 的 提升 。 其 中 , 匹配 程度 高 的 
文献 增加 的 幅度 较 小 ,如 非 学术 期 刊 为 训练 集 ， 网 页 
为 测试 集 的 分 类 准确 率 从 86.7% 上 升 到 88.9%。 而 原 
本 匹配 程度 不 高 的 文献 效果 提升 明显 ， 如 非 学 术 期 刊 
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为 训练 集 , 学术 期 刊 为 测试 集 的 分 类 准确 率 从 25.4% 
上 升 到 了 36.4%。 这 说 明 原 本 匹配 度 低 的 文献 之 间 具 
有 更 大 的 提升 空间 。 
4.4 实验 结果 分 析 

实验 (1) 分 别 比较 KNN 与 Naive Bayes 算 法 对 各 文 
献 类 型 文本 进行 单独 分 类 实验 , 经 比较 两 种 算法 效果 
几乎 一 致 , 本 文选 取 KNN 算法 进行 后 续 实 验 。 实 验 (2) 
将 不 同文 献 类 型 文本 进行 混合 自动 分 类 , 由 图 3 中 结 
果 可 知 网 页 类 型 文本 与 非 学 术 性 期 刊 类 型 文本 、 图 书 
类 型 文本 与 学 术 性 期 刊 类 型 文本 之 间 匹 配 程度 较 高 ， 
适合 用 来 验证 本 文 提出 的 特征 扩展 方法 。 实 验 (3) 将 本 
文 提出 的 基于 《 知 网 》 的 语义 特征 扩展 方法 与 实验 (2) 
中 未 使 用 特征 扩展 的 分 类 结果 对 比 , 首先 比较 单一 文 
献 类 型 分 类 实验 扩展 前 与 扩展 后 的 分 类 效果 , 分 别 有 
了 0.3%、2.3%、1.5%、0.8%, 证 明 本 文 提出 的 方法 能 
够 提升 相同 类 型 文献 的 分 类 效果 ; 其 次 重点 比较 网 页 
类 型 文本 与 非 学 术 性 期 刊 类 型 文本 、 图 书 类 型 文本 与 
学 术 性 期 刊 类 型 文本 扩展 前 与 扩展 后 的 分 类 效果 。 以 
网 页 文献 和 非 学 术 期 刊 文献 的 交叉 分 类 结果 为 例 ,， 扩 
展 后 的 分 类 效果 分 别提 升 了 1.2% 和 2.2%， 从 而 论证 
了 本 文 提出 的 基于 《 知 网 》 的 语义 特征 扩展 方法 不 论 
对 相同 类 型 还 是 不 同类 型 文献 间 的 自动 分 类 均 具 有 一 
定 的 有 效 性 。 通 过 对 扩展 前 后 的 特征 词 进行 比较 , 发 
现在 通过 特征 扩展 消除 语义 差异 的 过 程 中 , 同时 也 引 
入 了 一 些 “ 噪 声 词 ”， 即 因 在 多 个 类 别 都 频繁 出 现 而 类 
别 区 分 能 力 低 的 特征 词 ， 从 而 对 识别 工作 产生 干扰 ， 
造成 分 类 效果 的 提高 不 够 显著 。 男 外 ,虽然 网 页 与 非 
学 术 期 刊 的 交叉 分 类 效果 略 低 于 网 页 单独 分 类 的 实验 
效果 , 但 是 考虑 到 以 非 学 术 期 刊 作 为 训练 集 , 可 以 有 
效 地 避免 以 网 页 自身 作为 训练 集 时 需要 实时 更 新 所 带 
来 的 繁 元 的 工作 量 , 因此 文本 提出 的 扩展 方法 仍然 具 
有 实践 意义 。 


5 总 结 与 展望 


本 文 主要 研究 了 借助 第 三 方 资源 《 知 网 》 进 行 特 
征 扩展 的 多 种 类 型 文献 自动 分 类 问题 。 实 验 结果 证 明 ， 
在 匹配 程度 较 高 的 文献 类 型 之 间 , 多 种 类 型 文献 之 间 
的 交叉 分 类 可 以 取得 与 单一 类 型 文献 分 类 相同 甚至 更 
好 的 分 类 效果 。 在 此 基础 上 , 本 文 从 语料库 的 构建 和 
特征 扩展 等 两 个 角度 出 发 , 将 《 知 网 》 作 为 第 三 方 资 
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源 , 提出 一 种 基于 《 知 网 》 的 语义 特征 扩展 方法 , 利用 
《 知 网 》 中 的 语义 结构 消除 不 同文 献 之 间 因 用 词 或 写 
作风 格 等 因素 造成 的 差异 性 问题 ,以 进一步 提高 多 种 
文献 混合 自动 分 类 的 分 类 效果 , 并 通过 实验 证 明 该 方 
法 能 有 效 改 进 目 前 分 类 效果 。 该 方法 不 仅 能 够 利用 经 
过 科学 分 类 、 且 长 期 积累 的 文献 信息 高 效 地 完成 对 那 
些 数量 增长 迅速 、 更 新 频繁 的 文献 类 型 文本 的 自动 分 
类 工作 ， 而 且 得 到 了 更 好 的 分 类 效果 , 因此 具有 较 高 
的 实用 性 。 

本 研究 是 在 相对 成 熟 的 向 量 空间 模型 (VSM) 上 进 
行文 本 表示 的 基础 上 完成 的 。 其 实质 是 通过 外 部 资源 
实现 语义 扩展 , 缩小 不 同类 型 文献 之 间 的 差异 , 实现 
跨 文献 类 型 分 类 。 今后 , 在 继续 深入 探究 文献 类 型 差 
异 问题 的 基础 上 , 拟 对 多 种 类 型 文献 的 混合 自动 分 类 
中 如 何 消除 “只 声 词 ” 对 分 类 效果 产生 的 干扰 ， 从 而 进 
一 步 提 高 分 类 效果 等 方面 开展 更 深入 的 探讨 ; 此外， 
还 可 尝试 采用 概率 主题 模型 (LDA) 等 文本 表示 模型 对 
文本 建 模 ， 以 及 应 用 维基 百科 等 其 他 可 能 的 第 三 方 
资源 进行 跨 文献 类 型 分 类 , 评价 支持 向 量 机 (SVM) 等 
多 种 经 典 分 类 算法 对 跨 文 献 类 型 分 类 的 适应 性 等 研 


究 问题 。 
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ANew Automatic Categorization Method with Documents Based on 
HowNet 


LiXiangdong”” LiuKang' Ding Cong: Gao Fan! 
(School of Information Management, Wuhan University, Wuhan 430072, China) 
2(Center for the Studies of Information Resources, Wuhan University Wuhan 430072, China) 


Abstract: [Objective] This paper aims to solve the feature mismatch problem caused by different document types and 
Improve the performance of automatic classification technology. [Methods] We proposed a new method to extend the 
semantic features using documents of various types as the corpus, which were introduced the third-party resource 
HowNet and were different with the other un-categorized ones. [Results] Compared with the non-feature-extension 
classification method, the proposed method increased the F-measure by 1.2% to 11.0% in our classification experiment. 
Four document types, used in our study included webpages, books, non-academic periodicals and academic journals. 
[Limitations] Not every type of document was tested with the publicly accessible corpus, thus, more tests were needed 
to examine the generalization and objectiveness of the new method. [Conclusions] Our study showed that the proposed 
method was feasible. It could effectively eliminate the semantic differences among various types of collections and 
improve the performance of automatic text classification through corpus construction and feature extension. 


Keywords: Third-party resource HowNet Feature extension Semantic difference 


爱 荷 华 大 学 图 书馆 发 布 开 放 获 取 声 明 

为 了 推进 爱 荷 华 大 学 对 开放 式 研究 、 思 想 自由 和 学 术 作品 公共 获取 的 长 期 承诺 ， 爱 荷 华 大 学 图 书馆 采纳 了 开放 获取 政策 ， 
将 使 其 出 版 物 免 费 获 取 并 确保 其 长 期 保存 和 可 发 现 。 该 政策 完善 了 图 书馆 对 开放 获取 的 支持 ,从 而 支持 自由 获取 学 术 作品 ， 
促进 员工 角色 多 样 化 一 一 可 充当 学 术 和 专业 文献 的 生产 者 和 保存 者 , 彰显 爱 荷 华 大 学 图 书馆 宗旨 和 价值 所 有 爱 荷 华 大 学 图 
书馆 的 工作 人 员 授 予 爱 荷 华 大 学 存储 和 公开 获取 他 们 专业 出 版 物 全 文 的 权利 ,这 些 出 版 物 包 括 期 刊 论文 和 书籍 章节 等 传统 出 
版 物 ， 并 延伸 至 其 他 格式 的 文档 ， 如 会 议 演示 幻灯 片 、 公 开演 讲 的 音频 和 视频 记录 。 该 协议 为 爱 荷 华 大 学 存储 和 再 发 布 作品 
提供 了 非 排他 性 、 全 球 性 、 不 可 撤销 的 和 免 版 税 的 权利 许可 。 将 尊重 出 版 商 的 时 清 期 要 求 ， 在 每 项 作品 出 版 、 展 示 或 传播 后 
的 三 十 天 内 ,向 爱 荷 华 大 学 的 机 构 知 识 库 爱 荷 华 研究 在 线 Iowa Research Online) 提 交 电子 版 作品 。 理 想 情 况 下 ,提交 的 版 本 
将 是 出 版 商 的 最 终审 定稿 或 作者 的 最 终 录 用 手稿 。 只 有 在 特殊 情况 下 ,例如 一 个 出 版 商 拒绝 接受 该 政策 的 条 款 ， 图 书馆 可 发 
送信 息 给 学 术 出 版 团队 主席 , 选择 宪 免 本 政策 中 的 责任 。 学 术 出 版 团队 将 负责 解释 该 政策 、 解 决 相关 问题 ， 并 根据 需要 修改 
政策 。 学 术 出 版 团队 将 在 采纳 该 政策 一 年 后 对 它 进 行 审查 , 并 将 其 发 现 报告 给 爱 荷 华 大 学 图 书馆 。 
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